7 research outputs found

    Recovering 6D Object Pose and Predicting Next-Best-View in the Crowd

    Full text link
    Object detection and 6D pose estimation in the crowd (scenes with multiple object instances, severe foreground occlusions and background distractors), has become an important problem in many rapidly evolving technological areas such as robotics and augmented reality. Single shot-based 6D pose estimators with manually designed features are still unable to tackle the above challenges, motivating the research towards unsupervised feature learning and next-best-view estimation. In this work, we present a complete framework for both single shot-based 6D object pose estimation and next-best-view prediction based on Hough Forests, the state of the art object pose estimator that performs classification and regression jointly. Rather than using manually designed features we a) propose an unsupervised feature learnt from depth-invariant patches using a Sparse Autoencoder and b) offer an extensive evaluation of various state of the art features. Furthermore, taking advantage of the clustering performed in the leaf nodes of Hough Forests, we learn to estimate the reduction of uncertainty in other views, formulating the problem of selecting the next-best-view. To further improve pose estimation, we propose an improved joint registration and hypotheses verification module as a final refinement step to reject false detections. We provide two additional challenging datasets inspired from realistic scenarios to extensively evaluate the state of the art and our framework. One is related to domestic environments and the other depicts a bin-picking scenario mostly found in industrial settings. We show that our framework significantly outperforms state of the art both on public and on our datasets.Comment: CVPR 2016 accepted paper, project page: http://www.iis.ee.ic.ac.uk/rkouskou/6D_NBV.htm

    Νέες τεχνικές αναγνώρισης προτύπων για συστήματα τεχνητής όρασης

    No full text
    As robots’ working environments become more and more complex, new pattern recognition challenges emerge. Apart from the conventional question ”What is the object?", nowadays, scholars should answer to other appealing queries such as "Where is it?" or "How to manipulate it?". State of the art vision methods consist of advanced recognition subroutines that are fed into machine learning algorithms so as to reach assumptions, regarding the current world state, akin to the ones of a human mind. One of the most challenging tasks in machine vision is the estimation of the 3D pose of an object, due to its practical implication and its augmentative importance in scene interpretation processes. A plethora of diverse applications impose upon the accurate assessment of objects’ geometrical configuration, relative to a given coordinate system, in order to achieve their goals. In robotics, autonomous object manipulation can efficiently be accomplished only in cases where the full pose (six Degrees of Freedom (DoF)) of the testing target is known. Despite the affluent research endeavors and the achievements reached so far, an advanced vision system characterized by low complexity and sufficient generalization capabilities has yet to be built. This PhD thesis is inspired by the remarkable skills of humans in the particular task of estimating the relative pose of objects given an initial hypothesis. Regardless the lighting conditions and common visual disturbances, such as partial occlusions, humans excel in interpreting the 3D geometrical configuration of arbitrary placed objects. Among all operations realized by human beings, the majority is directly related to object manipulation. On the other hand, the realization of target manipulation by a robotic arm puts strict constraints regarding the exact speed of execution and the "nature" of the testing objects. Contemporary solutions to this problem require high storage capabilities whilst failing to generalize to unknown testing targets, i.e. objects that are not included into the training set. The main objective of this PhD thesis is the development of innovative vision algorithms tackling the 3D object pose estimation problem and that are to be realized on robotic platforms. It is apparent that, the designed architectures should initially, deal with the position estimation problem -i.e. mainly the depth estimation one- and gradually solve for the remainder three orientation DoFs. The relevant literature was surveyed to reveal the current state of the art and to highlight open research issues that are to be addressed. Afterwards, novel manifold modeling approaches, resulting in low dimensional and high discriminative feature vectors, were designed and implemented. Lastly, the developed algorithms were adopted by robotic platforms to carry out autonomous object grasping. In the first research endeavor of this thesis, the construction of a simple and easy-to-build framework for location assignment of an object in a scene, is investigated. The developed method is based on the observation that features extracted from any two-part (detector-descriptor) algorithm correspond to spots on the object’s surface and their center of mass is related to the one of the objects. Thus, by extracting these features at known positions of the sought object, one can estimate its distance from the camera. Comparing to the contemporary solutions for depth estimation, the employed approach is computationally inexpressive whilst requiring only a single sensor opposed to stereo vision architectures. Moreover, a neural network-based framework that is able to calculate the three rotational DoFs of any object is presented. The network is trained with numerous targets contained in several available datasets with the training process been guided by a fuzzy extraction of the centers of the abstracted features through the Fuzzy c-means algorithm. The 3D pose of an object in a training instance is considered as the distances of the fuzzy centers from one particular cluster. The proposed method involves a new input-output mapping that reduces the dimensionality of the input vectors with good performance. The contribution of this study entails the formalization of this new input-output method that outperforms the conventional dimensionality reduction techniques widely used in image processing applications. Following the intuition that (a) one object viewed under varying perspectives lays on a well-projected subspace and (b) different objects captured under similar viewpoints share identical poses, a sophisticated framework capable of both recognizing objects and estimating their pose in the 3D working space was coined. It encompasses a manifold modeling procedure that depends on the attributes of mutual information and a constellation-based structure, respectively. The employed recognition module incorporates a modified approach of a known dimensionality reduction technique that constructs a similarity matrix based on mutual information among objects and then seek a low-dimensional representation that preserves the local structure of the objects in the initial high-dimensional space. Once the data are projected into the sub-space a Support Vector Machine (SVM) classifier provides accurate recognition. The 3D pose estimation module is based on a manifold modeling algorithm that constructs feature vectors of low dimensionality and high discriminative capabilities. Then a Sparse Grasping Manifolds (SGM) method is proposed in this thesis, which aims at solving the problem of manipulation of unknown objects by unifying 3D pose manifolds and grasping points into a cohesive framework for robot grasping. Unlike contemporary systems that crave extensive supervision and large repositories of images of objects, meticulous emphasis is given on providing a ground solution with large generalization capacities founded on unsupervised learning. Additionally, the visual data available are processed in a way that their projection onto the corresponding subspaces is sparse, compact and highly representative. Grasping manifolds depend on a novel bunch-based architecture, here introduced for the first time that, unlike previous works, bypasses the part selection process using unsupervised clustering, while by extracting local patches encapsulates both appearance and geometrical attributes of the objects. Contrary to earlier works the presented method offers higher generalization capacities mainly due to the efficient learning of the employed function that is based on a large a priori training set containing numerous examples of real and artificial data. Moreover, through the minimization of the l₁ norm, the presented approach builds sparse and compact manifolds that are highly representative, tolerant to common imaging disturbances (e.g. noise) and possess superior discrimination capabilities. In the last study of this thesis, the goal was to design a unified architecture for autonomous manipulation of unknown objects, which is capable of answering and addressing the constraints of all the following questions: "What is the object?", "Where is it?" and "How to grasp it?". The recognition problem is tackled from a shape-based perspective, whilst obtaining accurate detection decisions via a Bag-of-Visual Words classification scheme. Grasping points are found through an ontology-based knowledge acquisition where recognized objects inherit the grasping points assigned to the respective class. The presented ontologies include: a) object-class related data, b) pose-manifolds assigned to each instance of the object-class conceptual model and c) information about the grasping points of every trained instance. This work represents the first integrated research endeavor in concept ontologization focusing on the liaison between image understanding algorithms and the corresponding motor commands in the particular task of unknown object grasping.Καθώς το περιβάλλον εργασίας των ρομπότ γίνεται όλο και πιο πολύπλοκο, αναδύονται νέες προκλήσεις αναγνώρισης προτύπων. Εκτός από τη συμβατική ερώτηση «Ποιο είναι το αντικείμενο», στις μέρες μας, οι επιστήμονες καλούνται να απαντήσουν και σε άλλες εξίσου ενδιαφέρουσες ερωτήσεις, όπως «Πού είναι αυτό;» ή «Πώς να το πιάσω;». Οι τεχνικές αιχμής περιλαμβάνουν προηγμένες υπορουτίνες αναγνώρισης προτύπων που συνεργάζονται με αλγόριθμους μηχανικής μάθησης, έτσι ώστε να παρέχουν πορίσματα, σχετικά με την τρέχουσα κατάσταση του περιβάλλοντος, παρόμοια με εκείνα που εξάγει ο ανθρώπινος νους. Ένα ενδιαφέρον πρόβλημα στον τομέα της υπολογιστικής όρασης είναι η εκτίμηση του τρισδιάστατου διανύσματος θέσης ενός αντικειμένου, λόγω της πρακτικής ιδιαιτερότητας και της θεμελιώδους σημασίας του, σε διαδικασίες κατανόησης σκηνικών. Μια πληθώρα διαφορετικών εφαρμογών απαιτούν την ακριβή εκτίμηση της γεωμετρικής τοποθέτησης των αντικειμένων, ως προς ένα δεδομένο σύστημα αναφοράς, για την επίτευξη των στόχων τους. Στη ρομποτική, ο αυτόνομος χειρισμός αντικειμένων είναι εφικτός μόνο σε περιπτώσεις, κατά τις οποίες οι έξι βαθμοί ελευθερίας του στόχου είναι γνωστοί. Παρά τις άφθονες ερευνητικές προσπάθειες και τα μέχρι στιγμής επιτεύγματα, δεν έχει ακόμη κατασκευαστεί ένα προηγμένο σύστημα όρασης, το οποίο να χαρακτηρίζεται από χαμηλή πολυπλοκότητα και επαρκείς δυνατότητες γενίκευσης. Η παρούσα διδακτορική διατριβή είναι εμπνευσμένη από τις αξιοσημείωτες έμφυτες ικανότητες των ανθρώπων, που εντοπίζονται στην εκτίμηση της σχετικής θέσης των αντικειμένων, δεδομένης μιας αρχικής υπόθεσης. Ανεξάρτητα από τις συνθήκες φωτισμού κα τις πιθανές κοινές διαταραχές της όρασης, όπως η μερική επικάλυψη, η υπεροχή των ανθρώπων σε ότι αφορά στην ερμηνεία της τρισδιάστατης γεωμετρικής τοποθέτησης των αυθαίρετα τοποθετημένων αντικειμένων είναι αδιαμφισβήτητη. Από όλες τις εργασίες που πραγματοποιούνται από ανθρώπινα όντα, η πλειοψηφία έχει άμεση σχέση με το χειρισμό αντικειμένων, είτε κατά τη διάρκεια της βρώσης και της πόσης, είτε για τον χειρισμό ενός εργαλείου. Από την άλλη πλευρά, η υλοποίηση του χειρισμού στόχου από ένα ρομποτικό βραχίονα τοποθετεί αυστηρούς περιορισμούς ως προς την ακριβή ταχύτητα εκτέλεσης και την «φύση» των υπό εξέταση αντικειμένων. Σύγχρονες λύσεις για το πρόβλημα αυτό προϋποθέτουν υψηλές δυνατότητες αποθήκευσης ενώ παράλληλα αποτυγχάνουν να γενικεύσουν σε άγνωστους στόχους, δηλαδή σε αντικείμενα που δεν περιλαμβάνονται στο σύνολο εκπαίδευσης. Ο κύριος στόχος αυτής της διδακτορικής διατριβής είναι η ανάπτυξη καινοτόμων αλγόριθμων όρασης, για την επίλυση του προβλήματος εύρεσης του διανύσματος θέσης αντικειμένων, οι οποίοι θα μπορούν να υιοθετηθούν από ρομποτικές πλατφόρμες. Είναι προφανές ότι, οι αρχιτεκτονικές που θα σχεδιαστούν θα πρέπει σε πρώτο στάδιο, να αντιμετωπίσουν το πρόβλημα εκτίμησης της θέσης (δηλαδή κυρίως του υπολογισμού του βάθους) και σταδιακά, να υπολογίζουν τους υπόλοιπους τρεις περιστροφικούς βαθμούς ελευθερίας. Αρχικά, ερευνήθηκε η σχετική βιβλιογραφία προκειμένου να αποκαλυφθούν οι τρέχουσες τεχνικές στην αιχμή της τεχνολογίας και να αναδειχθούν τα ανοικτά ζητήματα έρευνας που πρέπει να αντιμετωπιστούν. Στη συνέχεια σχεδιάστηκαν και υλοποιήθηκαν, καινοτόμες προσεγγίσεις μοντελοποίησης πολύπτυχων μορφωμάτων, που αντιστοιχούν σε διανύσματα χαμηλών διαστάσεων και υψηλών διακριτικών ικανοτήτων. Τέλος, οι κατασκευασμένοι αλγόριθμοι τοποθετήθηκαν σε προηγμένες ρομποτικές πλατφόρμες για αυτόνομο χειρισμό αντικειμένων. Αρχικά αυτή η διατριβή, ερευνά το σχεδιασμό ενός απλού και εύκολου στην υλοποίηση συστήματος, για την εύρεση της τοποθεσίας ενός αντικειμένου σε ένα σκηνικό. Η μέθοδος που αναπτύχθηκε εδράζεται στην παρατήρηση ότι, τα χαρακτηριστικά γνωρίσματα, που εξάγονται από οποιοδήποτε αλγόριθμο δύο μερών (ανιχνευτή-περιγραφέα), αντιστοιχούν σε σημεία στην επιφάνεια του αντικειμένου, το κέντρο μάζας των οποίων σχετίζεται με εκείνο του αντικειμένου. Επομένως, εξάγοντας χαρακτηριστικά γνωρίσματα σε γνωστές θέσεις του αναζητούμενου αντικειμένου, είναι εφικτός ο υπολογισμός της απόστασής του από την κάμερα. Σε σύγκριση με τις σύγχρονες λύσεις στο πρόβλημα της εκτίμησης βάθους, η προσέγγιση που προτείνεται απαιτεί μικρό υπολογιστικό κόστος, ενώ χρησιμοποιεί μόνο ένα αισθητήρα όρασης, σε αντίθεση με αρχιτεκτονικές που βασίζουν τη λειτουργία τους σε στερεοσκοπικές κάμερες. Στη συνέχεια παρουσιάζεται ένα πλαίσιο το οποίο, βασισμένο στις ιδιότητες των νευρωνικών δικτύων, είναι σε θέση να υπολογίζει τους 3 περιστροφικούς βαθμούς ελευθερίας οποιουδήποτε αντικειμένου. Το δίκτυο χρησιμοποιεί πολυάριθμα δεδομένα εκπαίδευσης, που περιέχονται σε διαθέσιμες βάσεις δεδομένων, ενώ τα χαρακτηριστικά γνωρίσματα εξάγονται μέσω του αλγορίθμου Fuzzy c-means. Λαμβάνοντας υπόψη ότι (α) ένα αντικείμενο φωτογραφισμένο υπό διαφορετικές γωνίες μπορεί να προβληθεί σε ένα συγκεκριμένο υποχώρο και (β) εντελώς διαφορετικά αντικείμενα φωτογραφισμένα υπό παρόμοιες οπτικές γωνίες μοιράζονται ίδια διανύσματα θέσης, υλοποιήθηκε ένα εξελιγμένο πλαίσιο, ικανό τόσο να αναγνωρίζει στόχους όσο και να υπολογίζει τη γεωμετρική τους τοποθέτηση. Αυτό περιλαμβάνει μια διαδικασία μοντελοποίησης πολύπτυχων μορφωμάτων βασισμένη στις ιδιότητες της αμοιβαίας πληροφορίας και σε μια αρχιτεκτονική μερών, αντίστοιχα. Η προτεινόμενη μέθοδος αναγνώρισης προτύπων ενσωματώνει μια τροποποιημένη προσέγγιση μιας γνωστής τεχνικής μείωσης διαστάσεων, που κατασκευάζει έναν πίνακα ομοιότητας με βάση την αμοιβαία πληροφορία μεταξύ των αντικειμένων και στη συνέχεια αναζητεί ένα αντιπροσωπευτικό διάνυσμα χαμηλών διαστάσεων, που να διατηρεί την τοπική δομή των αντικειμένων. Μόλις τα δεδομένα προβληθούν στον υποχώρο, ένας ταξινομητής βασισμένος σε μηχανές υποστήριξης διανυσμάτων παρέχει ακριβή πορίσματα αναγνώρισης. Όσον αφορά στο υποσύστημα τρισδιάστατου εντοπισμού θέσης, δημιουργούνται πολύπτυχα μορφώματα τα οποία, παρόλο που είναι χαμηλής διάστασης, παρέχουν αξιοσημείωτες διακριτικές ικανότητες. Η προτεινόμενη μέθοδος συνιστά μια εναλλακτική προσέγγιση στο πρόβλημα του υπολογισμού θέσης αντικειμένων καθώς είναι ικανή να προσφέρει αυξημένη γενίκευση, εν αντιθέσει με άλλες τεχνικές του τομέα που περιορίζονται στην εκτίμηση των γεωμετρικών τοποθετήσεων αυτοκινήτων. Η μέθοδος Αραιών Πολύπτυχων Μορφωμάτων Λαβής στοχεύει στην επίλυση του προβλήματος του χειρισμού άγνωστων αντικειμένων, με την ενοποίηση μορφωμάτων θέσης και σημείων λαβής σε ένα συνεκτικό πλαίσιο. Αντίθετα με τα σύγχρονα συστήματα που απαιτούν εκτεταμένη εποπτεία και αποθήκευση πολυάριθμων εικόνων των αντικειμένων, δίνεται ιδιαίτερη έμφαση στην παροχή μιας λύσης με μεγάλες δυνατότητες γενίκευσης, βασισμένη στις ιδιότητες της εκμάθησης χωρίς επίβλεψη. Επιπλέον, τα οπτικά στοιχεία, που είναι διαθέσιμα, υφίστανται επεξεργασία, τέτοια ώστε η προβολή τους στους αντίστοιχους υποχώρους να είναι αραιή, συμπαγής και επαρκώς αντιπροσωπευτική. Τα πολύπτυχα μορφώματα χειρισμού εξαρτώνται από μια αρχιτεκτονική μερών, η οποία παρουσιάζεται για πρώτη φορά και σε αντίθεση με προηγούμενες τεχνικές, παρακάμπτει τη διαδικασία επιλογής χαρακτηριστικών. Συγκεκριμένα, χρησιμοποιώντας τεχνικές εκμάθησης χωρίς επίβλεψη, η αρχιτεκτονική μερών είναι σε θέση να εξάγει νέα γνωρίσματα, που φέρουν τοπικές πληροφορίες γειτνίασης και υφής. Συγκρινόμενη με αλγορίθμους, που ανήκουν στην αιχμή της τεχνολογίας, η μέθοδος προσφέρει μεγαλύτερη ικανότητα γενίκευσης, κυρίως λόγω του ακριβούς υπολογισμού των παραμέτρων της προτεινόμενης συνάρτησης και της εκπαίδευσής της με μεγάλο αριθμό δεδομένων. Επιπροσθέτως, μέσω της ελαχιστοποίησης της L₁ νόρμας, δημιουργεί αραιά και συμπαγή πολύπτυχα μορφώματα, τα οποία είναι ανεκτικά σε κοινές διαταραχές απεικόνισης (π.χ. θόρυβος) και κατέχουν ανώτερες διακριτικές ικανότητες. Στην τελευταία μέθοδο της παρούσας διατριβής, δίνεται ιδιαίτερη έμφαση στο σχεδιασμό μιας ενοποιημένης αρχιτεκτονικής για αυτόνομο χειρισμό άγνωστων αντικειμένων, η οποία είναι σε θέση να απαντήσει στα ακόλουθα ερωτήματα: «Ποιο είναι το αντικείμενο;», «Πού είναι;» και «Πώς να το πιάσω;». Το πρόβλημα της αναγνώρισης ερευνάται υπό το πρίσμα των μορφολογικών ιδιοτήτων των στόχων, ενώ ταυτόχρονα, εξάγονται ακριβή πορίσματα για την ταυτότητα των αντικειμένων με τη χρήση του ταξινομητή Bag-of-Visual Words. Τα σημεία λαβής υπολογίζονται με τη χρήση οντολογιών, σύμφωνα με τις οποίες τα αντικείμενα που αναγνωρίζονται, κληρονομούν σημεία λαβής παρόμοια εκείνων της κλάσης στην οποία ανήκουν. Οι εν λόγω οντολογίες περιλαμβάνουν: α) δεδομένα που σχετίζονται με την κλάση του αντικειμένου, β) πολύπτυχα μορφώματα γεωμετρικής τοποθέτησης για κάθε στιγμιότυπο του αντικειμένου και γ) πληροφορίες σχετικά με τα σημεία λαβής του κάθε παραδείγματος εκπαίδευσης. Ο προτεινόμενος αλγόριθμος συνιστά την πρώτη ολοκληρωμένη ερευνητική προσπάθεια αξιοποίησης των δυνατοτήτων των οντολογιών και επικεντρώνεται στη δημιουργία σχέσεων μεταξύ τεχνικών κατανόησης εικόνας και μεθόδων αυτόνομου χειρισμού αντικειμένων

    A comparison framework for the evaluation of illumination compensation algorithms

    No full text
    Abstract—This paper presents a new comparison framework, with the view to help researchers in selecting the most appropriate illumination compensation algorithm to serve as a preprocessing step in computer vision applications. The main objective of this framework is to reveal the positive and negative characteristics of the algorithms, rather than providing a single metric to rank their overall performance. The comparison tests, that comprise the proposed framework, aim to quantitatively evaluate the efficiency of algorithms in diminishing the effects of illumination in images. The proposed framework utilizes synthetic images, with artificial illumination degradations, which are enhanced by the tested algorithms. It represents a useful tool for the selection of illumination compensation algorithms as preprocessing in other applications, due to a) its quantitative nature, b) its easy implementation and c) its useful estimations regarding many algorithm characteristics. I
    corecore